¿La atención es solo acoplamiento? Una perspectiva ODE jerárquica
Explora cómo el acoplamiento en transformers se modela con ecuaciones rápido-lento. Jerarquico sin ganancia de rendimiento pero con interpretacion teorica.
Explora cómo el acoplamiento en transformers se modela con ecuaciones rápido-lento. Jerarquico sin ganancia de rendimiento pero con interpretacion teorica.